Motifs séquentiels et approximation des valeurs manquantes

نویسنده

  • Céline Fiot
چکیده

RÉSUMÉ. Les bases de données issues du monde réel contiennent souvent de nombreuses informations non renseignées. Durant le processus d’extraction de connaissances dans les bases de données, une phase de traitement spécifique de ces données est souvent nécessaire, permettant de les supprimer ou de les compléter. Plus particulièrement lors de l’extraction de séquences fréquentes, ces données incomplètes sont la plupart du temps supprimées. Ceci conduit parfois à l’élimination de plus de la moitié de la base et l’information extraite n’est plus représentative. Nous proposons donc d’estimer la présence d’un item dans une transaction incomplète en modélisant celle-ci par une distribution de valeurs. Le degré d’appartenance indique alors pour chaque item à quel point il peut appartenir à la transaction. On tient ensuite compte de l’estimation par distribution lors du calcul de la fréquence d’apparition de chaque séquence. Pour cela, nous avons conçu un algorithme qui a été implémenté. Nous présentons ici les résultats de nos expérimentations.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Motifs séquentiels multidimensionnels étoilés

L’extraction de motifs séquentiels est un domaine de la fouille de données permettant de rechercher des corrélations fréquentes entre des valeurs en prenant en compte leur chronologie d’apparition. Dans le contexte du panier de la ménagère, ce type de méthodes permet par exemple l’extraction de règles de la forme 〈(TV,DV D)(magneto numerique)〉, indiquant qu’un nombre suffisamment important (au ...

متن کامل

Utilisation de règles d'association pour la prédiction de valeurs manquantes

Résumé. Le traitement des valeurs manquantes est une problématique importante dans le domaine des entrepôts de données. Plusieurs solutions ont été proposées pour la prédiction de valeurs manquantes, présentant les caractéristiques suivantes : (i) la prédiction traite soit des valeurs continues soit des valeurs discrètes, et (ii) la prédiction est approximative (soit elle est associée à une pro...

متن کامل

Fouille de Données Multidimensionnelles : Différentes Stratégies pour Prendre en Compte la Mesure

Résumé. Les entrepôts de données contiennent de gros volumes de données historisées stockées à des fins d’analyse. Des techniques d’extraction de motifs séquentiels multidimensionnels ont été développées afin de mettre en exergue des corrélations entre des positions sur des dimensions au cours du temps. Même si ces méthodes offrent une meilleure appréhension des données sources en prenant en co...

متن کامل

Traitement Des Donnees Manquantes Au Moyen De L'Algorithme De Kohonen

Le traitement des données avec observations manquantes est un problème concret et toujours embarrassant lorsqu’il s’agit de données réelles. En effet dans les applications, on est très souvent en présence d’observations pour lesquelles on ne dispose pas de l’ensemble des valeurs des variables descriptives, et ceci se produit pour de nombreuses raisons : erreurs de saisie, rubriques non renseign...

متن کامل

Extraction de propriétés correctes dans des bases de données incomplètes

Résumé : Les valeurs manquantes dans les bases de données posent de nombreuses difficultés lors de processus d’extraction de connaissances et les propriétés extraites sont parfois incorrectes. Nous proposons à l’aide de calculs menés dans une base incomplète de caractériser des propriétés de la base complète dont la base de calcul est issue. Les propriétés de k-liberté sont étudiées, elles sont...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007